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摘要 :【 目的 ] 通 过 融合 单个 文档 内 部 结构 信息 和 文档 整体 的 词 向 量 关系 进行 关键 词 抽取 。[ 方法 ] 利 用 Word2vec 


将 文档 集中 所 有 词汇 进行 向 量 表征 ,并 且 通 过 词 向 量 计算 词汇 之 间 的 相似 度 , 进而 对 TextRank 算法 进行 改进 ， 
将 候选 关键 词 的 权重 按照 词汇 之 间 的 相似 度 和 邻接 关系 进行 非 均 匀 分 配 ， 并 构建 对 应 的 概率 转移 矩阵 用 于 词汇 
图 模型 的 迭代 计算 以 及 关键 词 抽取 。[【 结果 】 实 现 Word2vec 与 TextRank 的 有 效 融合 , 上 且 当 训 练 文档 集 词 汇 分 布 


合理 时 ,关键 词 抽 取 效 果 较 明显 。[ 局 限 ] 需 要 进行 成 本 较 高 的 文档 集训 练 , 获取 词 向 量 以 及 词 关系 矩阵 。[ 结论 】 
文档 集中 的 词 关系 有 助 于 修正 单 文档 内 部 的 词 关 系 , 提升 单 文档 的 关键 词 抽取 准确 性 。 
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抽取 关键 词 的 目的 在 于 高 度 凝练 文本 的 主题 , 快 
速 获取 文本 的 核心 内 容 。 关 键 词 抽取 在 新 闻 、 学 术 论 
文 的 自动 摘要 ,社会 化 标签 标注 , 文本 主题 抽取 等 领 
域 具有 重要 作用 。 

稼 见 的 关键 词 抽取 步骤 为 : 对 文本 进行 分 词 , 去 
除 无 用 的 停 用 词 ， 判 断 词 是 否 为 关键 词 , 选择 N 个 词 
作为 该 文本 关键 词 。 其 中 , 判断 所 分 的 词 是 否 为 关键 
词 , 可 以 通过 关键 词 标记 语 料 进 行 分 类 模型 训练 , 通 
过 分 类 模型 进行 判断 ; 也 可 以 通过 结合 文本 内 部 词 与 
词 之 间 的 关系 , 以 图 模型 的 方式 进行 识别 。 而 图 模型 
的 实现 方法 又 以 TextRank! 为 典型 代表 。 

经 典 的 TextRank 算法 不 依赖 于 其 他 训练 语 料 , 重 
点 研究 文本 内 部 词语 结构 关系 ,建立 图 模型 进行 关键 
词 抽取 。 夏 天 中 的 研究 成 果 指明 词语 本 身 的 重要 差异 
会 影响 相 邻 节点 的 影响 力 传递 , 顾 益 军 等 中 将 TextRank 
算法 与 LDA 相 结合 , 将 候选 词语 节点 的 重要 性 按照 文 
档 集 主题 分 布 进行 非 均 匀 转 移 。 


为 了 能 够 充分 研究 词汇 与 词汇 之 间 的 关系 , 借助 
文档 本 身 以 及 文档 集 所 提供 的 外 部 信息 ， 本 文 将 
Word2vec 中 与 TextRank 算法 进行 融合 , 通过 Word2vec 
对 外 部 文档 集 进行 词 向 量 表征 ,获取 词汇 之 间 的 相似 
度 , 对 TextRank 算法 进行 改进 , 将 候选 词汇 节点 的 权 
重 按照 相 邻 词 的 相似 度 进行 合理 分 配 ,通过 迭代 计算 
每 个 词语 权重 , 最 终 通 过 权重 重新 排序 , 获取 关键 词 
抽取 结果 。 


2 研究 背景 


文本 关键 词 抽取 从 语 料 是 否 被 标记 的 角度 可 分 为 
有 监督 和 无 监督 两 种 。 其 中 有 监督 的 关键 词 抽取 典型 
代表 可 以 把 关键 词 抽取 看 作 是 一 个 二 分 类 问题 ,对 
于 任何 一 个 文本 中 的 词汇 ,进行 二 值 判断 ， 即 属于 关 
键 词 还 是 非 关 键 词 二 值 分 类 ,这 种 方法 要 求 对 文档 
集 语 料 提 前 进行 关键 词 人 工 标 记 ， 进 行 分 类 模型 训 
练 ， 进 而 实现 关键 词 抽取 ,需要 大 量 的 人 工 干 预 , 代 
价 较 高 。 


在 无 监督 的 关键 词 抽取 和 领域， 国内 已 经 有 不 少 相 
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关 研究 。 耿 焕 同等 中 利用 词 共 现 图 形成 的 主题 信息 与 
主题 间 连 接 关系 ,自动 提取 文档 的 主题 词 。 刘 菲 等 加 
提出 利用 关联 规则 挖掘 算法 进行 主题 词 提取 。 蒋 昌 金 
等 中 考虑 词语 的 语义 信息 ， 提 出 一 种 基于 组 合 词 和 同 
义 词 的 主题 词 提取 算法 。 

目前 比较 主流 的 无 监督 关键 词 抽取 基础 方法 主要 
有 三 种 : 基于 词 频 统计 的 TF-IDF 模型 关键 词 抽取 MM、 
基于 主题 模型 的 关键 词 抽取 和 基于 词汇 图 模型 的 关键 
词 抽 取 。 在 三 种 主流 的 无 监督 关键 词 抽取 研究 之 上 ， 
又 有 很 多 其 他 相关 的 优化 算法 。 

基于 词 频 统计 的 TF-IDF 模型 关键 词 抽取 是 一 种 
简单 而 又 经 典 的 关键 词 抽取 方法 , 通过 词 频 提 升 重要 
词汇 的 权重 , 通过 逆向 文档 频 降 低 公 共 词 的 权重 , 但 
这 种 方法 基于 词 频 ， 对 于 短文 本 效果 并 不 好 , 且 其 忽 
略 了 文本 内 部 词汇 与 词汇 之 间 的 关系 。 

基于 LDAI "I! 隐 含 主题 模型 的 关键 词 抽取 逐渐 受 
到 人 们 的 重视 0253，LDA 的 主题 模型 通过 语 料 训练 得 
到 ,获取 “文档 -主题 "概率 和 矩阵 以 及 “主题 -词汇 ”概率 
矩阵， 进而 求 得 “文档 -词汇 ”概率 和 矩阵， 并 进行 关键 
词 抽取 , 关键 词 抽取 的 效果 与 训练 文档 集 的 主题 分 布 
强 相 关 。 

基于 词汇 图 模型 关键 词 抽取 不 需要 额外 的 文档 集 
进行 训练 ,只 依靠 自身 文本 词汇 结构 信息 即 可 进行 关 
键 词 抽取 , 简单 而 有 效 ， 所 以 得 到 广泛 的 应 用 , 其 中 
又 以 TextRank0 算 法 为 典型 代表 。 

随 着 深度 学 习 的 兴起 ， 刘 俊 等 请] 使 用 深度 学 习 工 
具 Word2vec 进行 关键 词 抽取 , 使 用 Word2vec 将 训练 
文档 集中 所 有 词汇 进行 K 维 向 量 表征 ,基于 词 向 量 进 
行 词汇 之 间 的 相似 度 计算 , 进而 实现 词汇 聚 类 得 到 文 
档 的 关键 词 。 

文献 [2] 在 TextRank 的 基础 上 , 提出 词汇 本 身 的 重 
要 性 差异 会 影响 相 邻 节点 的 影响 力 传递 结果 。 文 献 


的 文章 效果 较 好 , 但 对 于 篇 幅 较 短 的 文章 则 无 法 满足 
关键 词 准 确 抽取 的 需求 。 

基于 文献 [3] 的 基本 研究 思路 , 借助 单一 文档 的 内 
部 结构 信息 和 文档 整体 的 信息 进行 主题 词 抽取 。 本 文 
提出 词汇 节点 关系 受 文档 集 词 汇 之 间 关 系 分 布 影响 ， 
结合 Word2vect* 训练 得 到 的 词汇 相似 度 矩 阵 , 改进 
TextRank 词汇 节点 的 初始 权重 以 及 概率 转移 矩阵 ， 同 
时 考虑 单 文档 内 部 词汇 结构 以 及 文档 集 词 汇 结构 信 
息 ,， 进而 提升 关键 词 抽取 效果 。 


3 ”研究 框架 与 方法 


本 文 借鉴 顾 益 军 等 所 的 研究 思路 ， 融 合 单一 文档 
的 内 部 结构 信息 与 文档 的 整体 信息 ,进行 主题 词 抽 
取 。 研 究 文档 集合 词汇 节点 之 间 的 关系 分 布 对 单一 文 
档 词 汇 结构 的 影响 。 

TextRank 算法 的 核心 思想 来 源 自 著 名 的 网 页 排名 
算法 PageRank09。TextRank 算法 将 文本 拆 分 成 最 小 组 
成 单元 ， 即 词汇 , 作为 网 络 节 点 , 组 成 词汇 网 络 图 模 
型 。TextRank 在 迭代 计算 词汇 权重 时 与 PageRank 一 
样 , 理论 上 是 需要 计算 边 权 的 , 但 是 为 了 简化 计算 ， 
通常 会 默认 相同 的 初始 权重 ,以 及 在 分 配 相 邻 词汇 权 
重 时 进行 均 分 。 

本 文 使 用 Word2vec 算法 进行 文档 集 词 向 量 计算 ， 
获取 文档 集 词汇 之 间 的 相似 矩阵 ,用 于 改进 TextRank 
算法 的 初始 权重 计算 以 及 迭代 计算 的 概率 转移 矩阵 ， 
最 终 获 取 到 文档 内 部 所 有 有 效 词汇 的 权重 ,进行 关键 
词 抽取 。 

Word2vec 是 Google 在 2013 年 开源 的 一 款 将 词 表 
征 为 空间 向 量 的 模型 工具 ,主要 采用 连续 词 袋 模型 7 
(Continuous Bag-Of-Words, CBOW) 以 及 Skip- graml 
模型 。 它 是 一 种 深度 学 习 的 模型 基于 人 工 神经 网 络 ， 
通过 多 层 感知 机 将 初始 的 底层 特征 组 合 为 更 抽象 的 


[12] 利 用 LDA 主题 模型 进行 关键 词 抽 取 , 需要 依赖 于 
大 量 的 训练 数据 , 代价 较 高 ， 且 无 法 满足 单 文档 的 关 
键 词 抽取 需求 。 而 文献 [3] 在 保持 PageRank 的 均匀 跳 
转 的 假设 下 , 采用 LDA 隐 含 主题 模型 分 析 计算 词汇 的 
整体 影响 力 , 结合 词语 之 间 的 邻接 关系 改进 TextRank 
的 概率 转移 矩阵 ,但 这 种 方法 没有 考虑 词汇 与 词汇 之 
间 的 整体 分 布 关系 。 文 献 [14] 使 用 深度 学 习 结合 词汇 


高 层 特征 ， 并 将 高 层 特征 用 于 普通 的 机 器 学 习 方 法 
以 得 到 更 好 的 效果 吕 。Word2vec 通过 训练 , 可 以 把 
文本 内 容 的 处 理 简 化 为 K 维 向 量 空间 中 的 向 量 运 算 ， 
向 量 空间 上 的 相似 度 可 以 用 来 表示 文本 语义 上 的 相 
似 度 。 

CBOW 模型 的 目的 是 通过 上 下 文 预测 当前 词汇 
出 现 的 概率 .从 图 1 可 以 看 到 CBOW 模型 的 网 络 结构 


聚 类 的 方法 进行 关键 词 抽取 , 研究 表明 对 于 篇 幅 较 长 


包括 三 层 : Input Layer( 输 入 层 ); Projection Layer( 投 影 
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层 ); Output Layer( 输 出 层 )。 其 中 , 训练 样本 为 
(Context(w), w), 假设 : Context(w) 是 由 w 前 后 各 ce 个 词 


构建 而 成 。 


V(Context(wW)!) V(Context(w),) V(Context(w),.) 


summation 
>. 


Input Layer 


Projection Layer 


Output Layer 


Sample:(Context(w),w) 


图 1 CBOW 模型 示意 


(1) 输入 层 : 输入 层 包 括 样本 Context(w) 中 2c 个 
词 的 词 向 量 ， 即 1 中 Input Layer 层 所 示 
V(Context(w)1), V(Context(wW)»), **…, V(Context(W)2c) E 
R™"。 其 中 , m 代表 词 向 量 的 长 度 。 

(2) 投影 层 : 在 投影 层 进行 的 操作 是 将 Input 
Layer 阶段 的 2c 个 词 向 量 做 求 和 操作 ， 如 公式 (1) 所 示 : 


2 
Xw = > V(Context(w)i) e R™ (1) 


其 中 , X, 为 词 w 向 量 累加 和 ,向 量 总 数 为 2c 个 ， 
V(Context(w)) 是 样本 文档 的 词 向 量 表示 , m 为 向 量 长 
度 , R 为 词典 向 量 范围 。 

(3) 输出 层 : 输出 层 表示 的 是 一 棵 二 叉 树 , 它 以 
训练 样本 中 出 现 的 词 作 为 叶子 节点 ,以 各 词 在 语 料 中 
出 现 的 次 数 作为 权 值 进行 Huffman 树 构造 。 在 这 棵 
Huffman 树 中 , 叶子 节点 共有 N(=|DD) 个 , 分 别 对 应 词 
典 D 中 的 词 , 非 叶子 节点 共有 N-1 个 , 即 图 1 中 标 成 
黑色 的 节点 。 

Skip-gram 模型 的 提出 是 为 了 解决 训练 语 料 选择 
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由 图 2 可 以 看 到 , Skip-gram 同样 由 三 层 网 络 模型 
构成 , 包括 : 输入 层 、 投 影 层 、 输 出 层 。 其 中 输入 层 
(Input Layer) 的 输入 是 词 向 量 W(t)e R™, 投影 层 的 训 
练 目的 是 使 公式 (2) 的 值 最 大 。 


工 
工 > DF iogp(Wuilw O) 


t=l -cj<e 


其 中 , c 是 词汇 窗口 大 小 , 在 Skip-gram 模型 中 即 
指 n-Skip-gram 的 n 值 大 小 , T 是 训练 文档 集 的 大 小 。 
Skip-gram 模型 中 计算 词汇 条 件 概 率 如 公式 (3) 所 示 : 


Woww 
Mo MW (3) 


Ml “i 
> exp(Vw, Vwi ) 


w=1 
其 中 , vv 和 vvw 分 别 是 词 w 的 输入 和 输出 向 量 。 与 
CBOW 模型 一 样 ，Skip-gram 模型 的 输出 层 (Output 
Layer) 也 是 一 棵 Huffman 树 。 


p(wo|wD = 


Input Layer 


Output Layer 


W(t—n/2) 
W(t-n/2+1) 


W(t+n/2-1) 
W(ttn/2+1) 


图 2 Skip-gram 模型 示意 
4 研究 过 程 


根据 文献 2-3,10], 将 关键 词 抽取 的 问题 转换 为 文 
档 词 汇 重要 性 排序 问题 , 根据 权重 对 词汇 进行 排序 ， 


的 问题 。 笔者 在 选择 Word2vec 的 训练 文档 集 时 , 要求 
做 到 语 料 文档 集 覆 盖 度 必须 高 、 语 料 文档 集 必 须 足够 
准确 。 在 N 元 模型 中 , 固定 窗口 大 小 的 局 限 在 于 窗口 
范围 外 的 词汇 关系 不 能 正确 地 被 反映 到 模型 中 , 可 以 
通过 增加 词汇 窗口 大 小 来 降低 影响 , 但 单纯 增加 窗口 
N 值 会 提升 训练 的 复杂 度 。 而 Skip-gram 模型 的 提出 
很 好 地 解决 了 这 一 问题 。 


现代 图 书 情报 技术 


获取 TopN 个 词 作为 文档 的 关键 词 。 基 于 文献 [1], 构 
建 一 个 以 词汇 作为 网 络 节点 的 关键 词 图 , 通过 迭代 计 
算 获 取 每 个 词汇 的 权重 。 将 Word2vec 训练 出 来 的 词汇 
相似 度 和 矩阵 融合 到 迭代 计算 中 , 优化 权重 计算 结果 。 
首先 ， 需 要 构建 一 个 关键 词 图 , 在 构建 关键 词 图 之 前 ， 
对 训练 文档 集 以 及 测试 文档 集 进行 预 处 理 ， 预 处 理 过 
程 分 为 以 下 4 个 步骤 : 


(1) 通过 中 国 科 学 院 计算 技术 研究 所 ICTCLAS” 
分 词 工 具 对 N 篇 文档 组 成 训练 文档 集 以 及 单 篇 测试 文 
档 进行 分 词 ,并 使 用 停 用 词 表 过 滤 分 词 结果 中 的 停 用 
词 , 获得 词汇 集 $1 与 $5, 其 中 Si 由 NN 个 子 词汇 集 组 成 ， 
一 个 子 词汇 集 对 应 一 篇 训练 文档 ; 

(2) 对 词汇 集 Si 与 $: 进行 词性 标注 ,保留 重要 词 
汇 , 如 名 词 、 动 词 、 形 容 词 ， 获 得 词汇 集 Si 与 S; , 同 
上 ，Si 由 N 个 子 词汇 集 组 成 ; 

(3) 对 词汇 集 Si 与 S; 进行 词汇 去 重 ,获得 词典 
D=[wi,Ww;,…wnm]e (SiUS)， 即 候选 关键 词 ; 

(4) 使 用 Word2vec 对 Si 进行 训练 , 得 到 词 向 量 ， 
进而 得 到 词典 DD 的 词汇 相似 度 和 矩阵 。 

通过 CBOW 模型 以 及 Skip-gram 模型 进行 样本 文 
档 集 训练 , 对 词典 DD 中 的 每 一 个 词 进行 K 维 词 癌 量 表 
征 , 然后 通过 计算 余弦 夹 角 , 得 到 词典 D 中 每 个 词 与 
其 他 词汇 之 间 的 相似 度 ， 如 公式 (4) 所 示 : 


8 cif 
Sim(ei,fi)= c0s0 = 一 一 一 一 一 (4) 
lei -lll 


其 中 , e; 是 源 文档 句子 中 第 i 个 词 ,f 是 目标 文档 句 
子 中 第 j 个 词 , 第 i 个 词 与 第 j 个 词 之 间 的 相似 度 为 
Sim(e;, f)， 而 6;, 为 词 问 量 表示 。 

假设 词典 总 大 小 为 n， 则 通过 Word2vec 的 文档 
集训 练 ， 获 得 一 个 nxn 的 词汇 相似 度 和 矩阵 , 通过 和 矩阵 
可 以 得 到 词典 中 任意 两 个 词汇 之 间 相 似 度 ， 如 公式 
(5) 所 示 : 


WIl Wi2 “°* Win 
. Wo] W272 … W 
MSim(wwi)=| . 2 .2 (5) 
Wnl Wn2 “°° Wh 


其 中 , M(Sim(w; wij)) 表 示 词 典 的 相似 度 和 矩阵 ，wi 
表示 词 ij 的 相似 度 。 需 要 注意 的 是 ,在 矩阵 中 ,下 标 
相同 的 值 表示 同一 词汇 与 自身 的 相似 度 , 例如 wii 表 
示 词 i 与 自身 的 相似 度 值 ,， 通常 表示 为 1， 无 参考 意 
义 ， 可 忽略 。 

在 所 有 预 处 理工 作 完 成 之 后 ,进行 测试 文档 候选 
关键 词 图 构建 。TextRank 的 核心 思想 是 一 个 词汇 节点 
的 重要 性 取决 于 有 多 少 个 相 邻 节点 指向 该 节点 ， 且 相 
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邻 节点 的 权重 同样 影响 该 节点 ,而 词汇 节点 的 权重 计 
算 如 公式 (6) 所 示 : 


Eu (6) 


Rw 
WY ow Vi 


其 中 ,，R(wi) 是 词 wi 的 权重 ，O(wj) 为 词 wi 的 出 度 ， 
e(Wi, wj 为 wj 一 Wi 边 权 ,V 为 词汇 节点 集合 ，y e[0,1] 
为 平滑 因子 , 即 阻尼 系数 (Damping Factor), 通常 取 值 
为 0.85。 

传统 的 TextRank 中 , 将 每 个 词汇 节点 的 权重 默认 
为 1, 通过 相 邻 关系 进行 迭代 计算 , 更 新 节点 的 权重 ， 
在 计算 词汇 节点 的 权重 贡献 时 以 权重 均 分 的 形式 向 相 
邻 节 点 传递 。 例如 , 图 3 为 由 6 个 词汇 节点 {V, Vi, V，, 
V3，Va, Vi 组 成 的 候选 关键 词 图 初始 状态 , 初始 默认 
每 个 词汇 节点 权重 为 1, 权 值 向 相 邻 节点 均 分 传递 ， 
所 以 V 节点 指向 其 他 5 个 节点 的 边 权 设 置 为 0.2, 而 其 
他 5 个 词汇 节点 指向 V 节点 的 边 权 为 1, 后 续 迭 代 计 
算 过 程 类 似 , 同样 以 权重 均 分 的 形式 设置 指向 相 邻 节 
点 的 边 权 。 


图 3 传统 候选 关键 词 图 初始 状态 


本 文 基于 当前 的 候选 关键 词 图 , 讨论 如 何 优化 词 
汇 节 点 的 初始 权重 ,以 及 优化 词汇 节点 影响 力 传 递 方 
式 , 改进 最 终 词 汇 权 重 排序 效果 , 进行 关键 词 抽取 。 对 
于 关键 词 图 词汇 节点 的 状态 初始 化 , 更 为 合理 的 方式 
并 不 是 默认 为 1， 而 是 把 各 个 节点 之 间 相 互 影响 力作 
为 初始 状态 , 在 这 里 词汇 节点 之 间 的 相互 影响 力 可 以 
使 用 词汇 之 间 的 相似 度 进行 量化 , 词汇 节点 初始 权重 
计算 如 公式 (7) 所 示 。 
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S(wj)= >» e(Wij, Wi) (7) 


其 中 , S(wi) 为 词汇 节点 由 的 初始 权重 ，e(wj,wi) 
为 wj 一 wi 相似 度 。 

在 改进 的 转移 矩阵 中 , 引入 词汇 相似 度 进行 迭代 
计算 , 词汇 节点 的 权 值 分 配 受 两 个 因素 影响 : 一 部 分 
是 词汇 节点 本 身 的 重要 性 , 代表 文档 内 部 结构 的 影响 
力 , 通常 通过 相 邻 节点 进行 调整 , 初始 状态 值 可 通过 
公式 (7) 计 算得 到 ， 后 续 通 过 迭代 计算 获取 得 到 ， 记 为 
TP(wi); 另 一 部 分 则 是 词汇 之 间 硬 性 关系 影响 力 分 值 ， 
可 以 通过 Word2vec 训练 得 到 , 形式 如 公式 (3) 所 示 , 代表 
外 部 文档 对 词汇 之 间 关 系 的 影响 , 记 为 M(CSim(wiwi)。 
因此 , 重新 定义 节点 重要 性 迭代 计算 的 过 程 如 公式 (8) 
所 示 : 


TP(wi)=Yla > 


wj 一 Wi 


M(Sim(wiwi)) 1 
OSimwiw 十 be Gry 


1 
= 二 
二 Dv 


(8) 

其 中 ，y e[0,1] 为 平滑 因子 , a 和 B 是 两 种 影响 因素 
的 权重 因子 , 这 里 使 a+B=1, 在 实验 中 各 取 0.5， 即 词 
汇 节点 本 身影 响 与 外 部 文档 词汇 关系 影响 各 占 50%， 
M(Sim(wi wi)) 为 外 部 文档 词汇 之 间 相 似 度 ， 即 词汇 wi 
与 wi 的 相似 度 , 取 值 参考 公式 (5)，O(wj) 是 wi 的 出 度 ， 
R(wj) 是 词 wi 的 权重 , V 为 词汇 节点 集合 。 

在 迭代 计算 之 前 , 构建 词汇 之 间 的 概率 转移 矩阵 ， 
如 公式 (9) 所 示 : 


WI1 W12 ”Win 
W21 W22 “°° Wy 

M(T(wiwij)=| : a (9) 
WwWnl Wn2 “°° Whn 


其 中 , 元 素 wi 表示 节点 wi 的 影响 力 转移 到 第 i 个 
词汇 wi 的 概率 , 具体 体现 为 相 邻 词汇 边 权 的 分 配 ， 可 
以 通过 公式 (10) 计 算得 到 。 

ee MSimWwiwi) ,8 1 
1 OM(Sim(wiwj)) O(w)) 

在 引入 转移 概率 矩阵 之 后 ,每 一 次 的 迭代 结 
果 都 可 以 通过 M(T(wiwj)) 计 算得 到 , 令 Bi 表示 一 次 
迭代 的 结果 ， 则 迭代 计算 的 过 程 由 公式 (6) 转 换 为 
公式 (11)。 


(10) 
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加 


Bi =YM(T(wi wi)x Bi + (1 -DE (1) 


其 中 , e 为 一 个 所 有 分 量 为 1， 维 数 为 k 的 向 量 。 
当 和 迭代 计算 相 邻 两 次 的 计算 结果 差异 较 小 时 , 停止 迁 
代 计 算 ， 即 迭代 计算 结果 已 经 收敛 。 在 收敛 之 后 ， 对 所 
有 词汇 节点 的 当前 权重 进行 降序 排列 , 选取 TopN 个 
词 作 为 文档 的 关键 词 进行 输出 。 

整个 Word2vec 与 TextRank 的 融合 过 程 分 两 步 : 
基于 Word2vec 对 训练 文档 集 进行 训练 , 最 终 获 取 形 如 
公式 (5) 的 词汇 关系 矩阵 ; 把 外 部 词汇 关系 影响 力 带 入 
公式 (10), 通过 迭代 计算 实现 词汇 节点 的 权重 计算 ， 
进而 进行 权重 排序 以 及 进行 关键 词 抽取 。 


S 实验 结果 


选取 网 络 公 开 搜 狗 实验 室 语 料 集 作为 训练 文档 集 
以 及 测试 文档 集 , 范围 覆盖 军事 、 教 育 、 经 济 、 娱 乐 
等 多 个 领域 。 对 于 每 个 领域 语 料 集 ， 挑选 10 篇 文档 作 
为 测试 集 , 共 90 篇 测试 文档 ， 其余 作为 训练 文档 集 ， 
共 4500 篇 文档 。 在 4GB 内 存 的 计算 机 上 对 训练 文档 
集 进 行 Word2vec 词 向 量 训练 ， 历时 38 分 钟 产生 一 个 
大 小 约 120MB 的 词 相似 矩阵 模型 文件 。 

通过 词 相似 矩阵 模型 对 TextRank 计算 过 程 优化 ， 
对 于 90 篇 测试 集 文档 最 终 自动 提取 3、5、7、10 个 关 
键 词 。 采 用 多 组 人 工 对 测试 集 文档 进行 关键 词 标注 的 
形式 ,进行 结果 交叉 验证 ,以 降低 个 人 主观 性 带 来 的 
结果 偏差 , 最 终 分 别提 取 3、5、7、10 个 关键 词 作为 
测试 校 验 对 比 结果 。 

此 外 基于 相同 的 训练 文档 集 及 测试 集 ， 本文 实现 
了 基于 TF-IDF 的 关键 词 抽取 算法 , 传统 的 TextRank 
关键 词 抽取 算法 ,以 及 基于 Word2vec 词 聚 类 关键 词 抽 
取 算 法 , 并 对 这 4 种 关键 词 抽取 算法 的 输出 结果 进行 
分 析 比 较 。 

目前 关键 词 抽取 算法 效果 的 评判 标准 有 准确 率 P、 
召回 率 R 以 及 下 值 , 计算 公式 如 下 : 

Pp 抽取 结果 中 与 人 工 标注 相同 的 关键 词 个 数 
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信 工 标注 的 关键 词 总 个 数 (012 

RR _ 抽取 结果 中 与 人 工 标注 相同 的 关键 词 个 数 (13) 
抽取 关键 词 总 个 数 

F-measure = 2PR (14) 
P+R 


为 了 保证 关键 词 评价 的 正确 性 , 通过 多 组 实验 人 


员 交 叉 对 测试 文档 集 进 行 关 键 词 人 工 标注 ,并 且 分 别 
为 测试 文档 集 每 篇 文档 标注 了 3、5、7、10 个 关键 词 。 
最 后 分 别 使 用 4 种 算法 进行 关键 词 提取 , 计算 准确 率 、 
召回 率 以 及 F 值 三 个 评价 指标 。 

由 表 1- 表 3 可 以 看 出 , 基于 词 频 统计 的 TF-IDF 
算法 随 着 关键 词 数 的 增加 , 效果 逐渐 变 差 ， 且 整体 效 
果 较 差 ; 而 基于 TextRank 算法 的 关键 词 抽取 效果 变化 
波动 不 大 ; 基于 Word2vec 词 聚 类 的 关键 词 抽取 效果 
随 着 关键 词 数 的 增加 ,抽取 效果 逐渐 变 好 ; 基于 
Word2vec 与 TextRank 算法 融合 的 关键 词 抽取 效果 随 
着 关键 词 数 的 增加 , 抽取 效果 逐渐 变 好 ， 且 整体 效果 
较 好 。 


表 1 4 种 算法 准确 率 比 较 


算法 人 3 9 双 10 

TF-IDF 0.305 0.263 0.241 0.238 
TextRank 0.332 0.329 0.323 0.321 
Word2vec 0.275 0.303 0.321 0.357 


Word2vec+TextRank 0.314 0.336 0.376 0.398 
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(4) 融合 Word2vec 词 向 量 与 TextRank 图 模型 的 
关键 词 抽取 方法 , 在 继承 了 TextRank 关键 词 抽取 效果 
稳定 的 基础 上 , 抽取 效果 有 了 进一步 的 提升 , 同样 也 
继承 了 Word2vec 词 聚 类 关键 词 抽取 随 着 关键 词 数 上 
升 效果 有 所 上 升 的 特点 。 
融合 了 Word2vec 与 TextRank 算法 的 关键 词 抽 取 ， 
利用 Word2vec 进行 词 向 量 训练 , 进而 计算 词汇 之 间 的 
相似 度 和 矩阵 ， 因 此 本 文 提出 如 下 改进 : 

(1) 使 用 更 大 量 的 训练 文档 集训 练 更 精确 的 相似 
度 和 矩阵 。 

(2) 在 词典 筛选 上 使 用 更 精确 的 停 用 词 字 典 ， 进 
一 步 排 除 无 效 词 的 干扰 。 

(3) 改进 Word2vec 算法 模型 ,增加 神经 网 络 的 层 
次 , 提高 词 向 量 的 语义 抽象 层次 ,进一步 提高 词汇 相 
似 度 的 准确 率 。 

(4) 使 用 分 布 式 架构 , 例如 Spark 内 存 计算 进行 算 
法 实验 ,提高 算法 的 运行 速度 。 

综 上 所 述 , 融合 Word2vec 词 向 量 与 TextRank 网 


表 2 4 种 算法 召回 率 比 较 


算法 个 数 3 5 区 10 

TF-IDF 0.312 0.272 0.248 0.231 
TextRank 0.327 0.334 0.331 0.323 
Word2vec 0.281 0.311 0.327 0.346 


Word2vec+TextRank 0.312 0.339 0.383 0.395 


表 3 4 种 算法 F 值 比较 


算法 2 3 3 7 10 
TF-IDF 0.308 0.268 0.244 0.234 
TextRank 0.330 0.332 0.326 0.322 
Word2vec 0.278 0.306 0.324 0.352 


Word2vec+TextRank 0.312 0.338 0.380 0.396 


模型 的 关键 词 抽取 方法 主要 优势 在 于 结合 文档 内 部 结 
构 与 外 部 文档 词汇 关系 的 影响 , 继承 了 两 种 算法 的 优 
势 ， 关键 词 抽取 效果 相对 较 好 , 但 本 文 结果 以 及 算法 
分 析 依 然 存 在 很 大 的 改进 之 处 。 


6 结 语 


文档 的 本 身 结构 信息 与 外 部 文档 集体 现 的 词汇 
关系 是 关键 词 抽 取 的 重要 依据 。 本 文 基于 Word2vec 
进行 词典 词汇 之 间 关 系 计算 ,进而 改进 TextRank 算 
法 的 权重 分 配 迭 代 计 算 公 式 , 把 词汇 之 间 的 相似 度 
影响 力 纳 入 词汇 节点 边 权 分 配 转 移 构 建 中 ,通过 和 迭 
代 计 算 致 使 词汇 节点 权重 收敛 ,进行 词汇 节点 权重 
排序 和 关键 词 抽取 ,进而 在 相同 文档 集 上 使 用 不 同 
算法 进行 对 比分 析 。 


针对 这 种 现象 , 本 文 对 关键 词 抽取 过 程 进 行 了 深 
和 人 分析, 并 得 出 如 下 结论 : 

(1) 传统 的 基于 词 频 统计 的 TF-IDF 算 法 关键 词 抽 
取 效 果 比 较 一 般 。 

(2) 基于 传统 词 图 模型 TextRank 算法 关键 词 抽取 
效果 比较 稳定 。 

(3) 基于 词 向 量 聚 类 的 关键 词 抽取 算法 适用 于 篇 
幅 较 大 的 文档 。 


实验 结果 表明 , 在 随 着 关键 词 数 的 上 升 ， 本文 方 
法 略 优 于 传统 TextRank 词 图 模型 和 Word2vec 词 聚 类 
方法 , 且 该 方法 继承 了 传统 TextRank 算 法 和 Word2vec 
词 聚 类 算法 的 优点 。 同 时 , 训练 文档 集 的 规模 以 及 文 
档 内 部 结构 和 外 部 文档 词汇 关系 影响 力 权 重 比 对 抽取 
结果 影响 也 较 大 ， 因 此 ,进一步 提升 训练 文档 集 规模 
以 及 研究 文档 内 外 部 影响 力 比 重 对 抽取 效果 的 影响 ， 
将 是 本 人 研究 后 续 的 工作 之 一 。 
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Using Word2vec with TextRank to Extract Keywords 


Ning Jianfei Liu Jiangzhen 
(Department of Electronic Information, Luoding Polytechnic, Luoding 527200, China) 


Abstract: [Objective] This study extracts keywords through combining the internal structure of each single document 
and the word vector of the corpus. [Methods] First, we used Word2vec to represent all words” vector from the 
document corpus and then calculated their similarities. Second, modified the TextRank algorithm and assigned weights 
to the keywords in accordance with their similarities and adjacency relations. Finally, we built a probability transfer 
matrix for the iterative calculation of the lexical graph model and then extracted keywords. [Results] The Word2vec 
and TextRank were integrated and extracted keywords effectively. [Limitations] The proposed method needs much 
training with the corpus to establish word vector and relation matrix. [Conclusions] The relationship among words from 
the document sets could help us modify the words relationship from a single document, and then increase the accuracy 
of extracting keywords from the individual document. 


Keywords: Keyword extraction Word2vec TextRank Graphical model Word vector 


OCLC 和 RLUK 发 布 研 究 报 告 , 分 析 英 国 研 究 图 书馆 馆藏 情况 


OCLC 和 英国 研究 图 书馆 (RLUK) 于 近日 发 布 了 一 份 新 的 研究 报告 , 该 报告 全 面 分 析 了 英国 研究 图 书馆 的 馆藏 情况 ,在 
广度 、 深 度 和 复制 呈现 方面 有 其 独一无二 的 视角 , 并 且 突 出 强调 了 将 这 些 馆藏 资源 作为 一 个 共有 资源 所 面临 的 机 会 和 挑战 。 
该 报告 题 为 《有 力 的 数字 : 英国 研究 图 书馆 馆藏 》(Strength in Numbers: The Research Libraries UK (RLUK) Collective 
Collection)。 

该 报告 描述 了 RLUK 集体 馆藏 ， 即 RLUK 成 员 图 书馆 的 联合 收藏 的 突出 特征 , 并且 特别 强调 了 馆藏 印刷 资源 的 特征 。 报 
告 中 的 发 现 将 会 为 RLUK 成 员 馆 的 战略 决策 提供 支持 , 特别 是 在 成 员 馆 就 长 期 馆藏 管理 (长 期 保存 和 存储 ) 进 行 深度 合作 , 数 
字 馆 藏 替 代 印 刷 馆 藏 的 可 能 性 ， 如 何 更 有 效 地 利用 图 书馆 空间 等 方面 。 

报告 的 调查 结果 包括 : 

(1) RLUK 集体 馆藏 包含 2 940 万 份 互 不 相同 的 出 版 物 (各 种 类 型 都 有 ), 其 中 包含 2 090 万 份 互 不 相同 的 印 必 

(2) RLUK 成 员 馆 馆藏 的 印刷 图 书 丰富 多 样 , 共有 467 种 语言 ， 出 版 自 254 个 国家 和 地 区 ; 

(3) 稀缺 性 在 RLUK 集体 馆藏 中 很 常见 , 在 RLUK 成 员 馆 的 馆藏 中 鲜 有 重复 , 增加 了 集体 馆藏 的 广度 和 深度 ; 

(4) RLUK 集体 馆藏 中 的 印刷 图 书 有 将 近 46 万 个 不 同 的 主题 ; 

(5) RLUK 集体 馆藏 相似 于 ,同时 也 不 同 于 研究 图 书馆 协会 (ARL) 的 集体 馆藏 : 例如 ,相当 大 比例 (42%) 的 RLUK 印刷 图 
书 与 ARL 馆藏 相 重复 , 但 是 更 大 比例 (58%) 的 印刷 图 书 是 不 同 的 。 

(编译 自 : http://www.oclc.org/en-US/news/releases/2016/201601sheffield.html) 
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